This paper presents an approach that reconstructs a hand-held object from a monocular video. In contrast to many recent methods that directly predict object geometry by a trained network, the proposed approach does not require any learned prior about the object and is able to recover more accurate and detailed object geometry. The key idea is that the hand motion naturally provides multiple views of the object and the motion can be reliably estimated by a hand pose tracker. Then, the object geometry can be recovered by solving a multi-view reconstruction problem. We devise an implicit neural representation-based method to solve the reconstruction problem and address the issues of imprecise hand pose estimation, relative hand-object motion, and insufficient geometry optimization for small objects. We also provide a newly collected dataset with 3D ground truth to validate the proposed approach.
translated by 谷歌翻译
For saving cost, many deep neural networks (DNNs) are trained on third-party datasets downloaded from internet, which enables attacker to implant backdoor into DNNs. In 2D domain, inherent structures of different image formats are similar. Hence, backdoor attack designed for one image format will suite for others. However, when it comes to 3D world, there is a huge disparity among different 3D data structures. As a result, backdoor pattern designed for one certain 3D data structure will be disable for other data structures of the same 3D scene. Therefore, this paper designs a uniform backdoor pattern: NRBdoor (Noisy Rotation Backdoor) which is able to adapt for heterogeneous 3D data structures. Specifically, we start from the unit rotation and then search for the optimal pattern by noise generation and selection process. The proposed NRBdoor is natural and imperceptible, since rotation is a common operation which usually contains noise due to both the miss match between a pair of points and the sensor calibration error for real-world 3D scene. Extensive experiments on 3D mesh and point cloud show that the proposed NRBdoor achieves state-of-the-art performance, with negligible shape variation.
translated by 谷歌翻译
从消息传递机制中受益,图形神经网络(GNN)在图形数据上的繁荣任务上已经成功。但是,最近的研究表明,攻击者可以通过恶意修改图形结构来灾难性地降低GNN的性能。解决此问题的直接解决方案是通过在两个末端节点的成对表示之间学习度量函数来建模边缘权重,该指标函数试图将低权重分配给对抗边缘。现有方法使用监督GNN学到的原始功能或表示形式来对边缘重量进行建模。但是,两种策略都面临着一些直接问题:原始特征不能代表节点的各种特性(例如结构信息),而受监督的GNN学到的表示可能会遭受分类器在中毒图上的差异性能。我们需要携带特征信息和尽可能糊状的结构信息并且对结构扰动不敏感的表示形式。为此,我们提出了一条名为stable的无监督管道,以优化图形结构。最后,我们将精心设计的图输入到下游分类器中。对于这一部分,我们设计了一个高级GCN,可显着增强香草GCN的鲁棒性,而不会增加时间复杂性。在四个现实世界图基准上进行的广泛实验表明,稳定的表现优于最先进的方法,并成功防御各种攻击。
translated by 谷歌翻译
会话推荐系统(CRS)旨在捕获用户的当前意图,并通过实时多转交流交互提供建议。作为人机互动系统,CRS必须改善用户体验。但是,大多数CRS方法忽略了用户体验的重要性。在本文中,我们为CRS提出了两个关键点,以改善用户体验:(1)像人类一样说话,人类可以根据当前的对话环境以不同的风格说话。 (2)识别精细颗粒的意图,即使对于相同的话语,不同的用户也具有多种良好的意图,这与用户的固有偏好有关。根据观察结果,我们提出了一个新颖的CRS模型,即创建的定制对话推荐系统(CCRS),该系统从三个角度从三个角度定制了用户的CRS模型。对于类似人类的对话服务,我们提出了多式对话响应生成器,该响应响应生成器选择了语音发言的上下文感知语言风格。为了提供个性化的建议,我们在用户固有的偏好的指导下从对话上下文中提取用户当前的细粒度意图。最后,为了自定义每个用户的模型参数,我们从元学习的角度训练模型。广泛的实验和一系列分析表明,我们的CCR在推荐和对话服务上的优势。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
在本文中,我们介绍了VCSL(视频复制段本地化),这是一种新的综合段级注释的视频复制数据集。与受视频级注释或小规模限制的现有复制检测数据集相比,VCSL不仅具有两个段级标签的数据级,其中有160k现实的视频副本对,其中包含超过280k的本地化copied seggment对,而且还包含超过280k涵盖各种视频类别和各种视频持续时间。每个收集的视频对中的所有复制段均经过手动提取,并伴随着精确注释的启动和结束时间戳。除了数据集外,我们还提出了一种新颖的评估协议,该协议可以更好地衡量视频对之间复制重叠段的预测准确性,并在不同情况下显示出改善的适应性。通过使用拟议的数据集和评估指标对几个基线和最先进的细分级视频副本检测方法进行基准测试,我们提供了一项全面的分析,可以揭示当前方法的优势和劣势作品。 VCSL数据集,公制和基准代码均在https://github.com/alipay/vcsl上公开获得。
translated by 谷歌翻译
卷积神经网络(CNN)的深度学习体系结构在计算机视野领域取得了杰出的成功。 CNN构建的编码器架构U-Net在生物医学图像分割方面取得了重大突破,并且已在各种实用的情况下应用。但是,编码器部分中每个下采样层和简单堆积的卷积的平等设计不允许U-NET从不同深度提取足够的特征信息。医学图像的复杂性日益增加为现有方法带来了新的挑战。在本文中,我们提出了一个更深层,更紧凑的分裂注意U形网络(DCSAU-NET),该网络有效地利用了基于两个新颖框架的低级和高级语义信息:主要功能保护和紧凑的分裂注意力堵塞。我们评估了CVC-ClinicDB,2018 Data Science Bowl,ISIC-2018和SEGPC-2021数据集的建议模型。结果,DCSAU-NET在联合(MIOU)和F1-SOCRE的平均交点方面显示出比其他最先进的方法(SOTA)方法更好的性能。更重要的是,提出的模型在具有挑战性的图像上表现出了出色的细分性能。我们的工作代码以及更多技术细节,请访问https://github.com/xq141839/dcsau-net。
translated by 谷歌翻译
随着电子商务行业的爆炸性增长,检测现实世界应用中的在线交易欺诈对电子商务平台的发展越来越重要。用户的顺序行为历史提供有用的信息,以区分从常规支付的欺诈性付款。最近,已经提出了一些方法来解决基于序列的欺诈检测问题。然而,这些方法通常遭受两个问题:预测结果难以解释,并且对行为的内部信息的利用不足。为了解决上述两个问题,我们提出了一个分层可解释的网络(母鸡)来模拟用户的行为序列,这不仅可以提高欺诈检测的性能,还可以使推理过程解释。同时,随着电子商务业务扩展到新域名,例如新的国家或新市场,在欺诈检测系统中建模用户行为的一个主要问题是数据收集的限制,例如,非常少的数据/标签。因此,在本文中,我们进一步提出了一种转移框架来解决跨域欺诈检测问题,其旨在从现有域(源域)的知识传输足够的域(源域),以提高新域中的性能(目标域)。我们所提出的方法是一般的转移框架,不仅可以应用于母鸡而且可以在嵌入和MLP范例中应用各种现有模型。基于90个转移任务实验,我们还表明,我们的转移框架不仅可以促进母鸡的跨域欺诈检测任务,而且对于各种现有模型也是普遍的和可扩展的。
translated by 谷歌翻译
在图像分类中,获得足够的标签通常昂贵且耗时。为了解决这个问题,域适应通常提供有吸引力的选择,给出了来自类似性质但不同域的大量标记数据。现有方法主要对准单个结构提取的表示的分布,并且表示可以仅包含部分信息,例如,仅包含部分饱和度,亮度和色调信息。在这一行中,我们提出了多代表性适应,这可以大大提高跨域图像分类的分类精度,并且特别旨在对准由名为Inception Adaption Adationation模块(IAM)提取的多个表示的分布。基于此,我们呈现多色自适应网络(MRAN)来通过多表示对准完成跨域图像分类任务,该任向性可以捕获来自不同方面的信息。此外,我们扩展了最大的平均差异(MMD)来计算适应损耗。我们的方法可以通过扩展具有IAM的大多数前进模型来轻松实现,并且网络可以通过反向传播有效地培训。在三个基准图像数据集上进行的实验证明了备的有效性。代码已在https://github.com/easezyc/deep-transfer -learning上获得。
translated by 谷歌翻译
近年来见证了基于地点的社交网络(LBSN)服务的日益普及,这为构建个性化的兴趣点(POI)推荐系统提供了无与伦比的机会。现有的POI推荐和位置预测任务利用过去的信息来从单个方向角度使用过去的推荐或预测,而缺少的POI类别识别任务需要在缺少类别之前和之后使用检查信息。因此,长期存在的挑战是如何在移动用户的现实检查数据中有效地识别丢失的POI类别。为此,在本文中,我们提出了一种新的神经网络方法,通过整合双向全球非个人转换模式和用户的个人喜好来识别缺失的POI类别。具体而言,我们精致地设计了一个关注匹配的单元格,以模拟登记类别信息如何与他们的非个人转换模式和个人偏好匹配。最后,我们在两个现实世界数据集中评估我们的模型,与最先进的基线相比,这明确验证了其有效性。此外,我们的模型可以自然扩展,以解决具有竞争性能的下一个POI类别推荐和预测任务。
translated by 谷歌翻译